ここ で は , FPGA に お ける 乗算 器 の 活用 法 を 解説 する . 最近 の 
FPGA は , 低 コ スト ・ フ ァ ミ リ で は 18 ビッ ト X 18 ビッ ト の 
乗算 器 を , 高 性 能 フ ァ ミ リ で は 積 和 演 算 機能 を 持つ DSP ブロ 
ッ ク を 搭載 し て いる . ディ ジタル 信号 処理 の よう に , 多く の 演 
算 を 行う アプ リケーション の 設計 で は , 乗算 器 を 効果 的 に 活用 
する こと で , 高い 性 能 を 実現 で きる よう に な る . (編集 部 ) 


最近 の FPGA field programmable gate array) は , 単 
な る プロ グラ ミン グ 可 能 な 論理 ブロ ッ ク の か た まり で は な 
く な っ て いま す . あら か じ め ハ ー ド ・ ワ イヤ ー ド 論理 で 作 
られ た 乗算 器 , クロ ッ ク 管 理 , メ モリ な どの 機能 が 組み 込 
まれ て いま ず 図 1). 

乗算 器 は 論理 ブロ ッ ク を 使え ば 実現 可能 で す . し か し , 


演算 精度 を 上 げ よ うと する と 多く の 論理 ブロ ッ ク を 消費 し , 
遅延 も 大 きく な っ て し まい が ち で す . これ に 対し て , ハー 
ド ・ ワ イヤ ー ド 論理 の 乗算 器 で あれ ば , シリ コン 上 で 構成 
で きる 最高 の 性 能 が 保証 され る こと に な り ま す . アプ リ ケ 
ーション 回 路 の 設計 に お いて , 特定 の 機能 こつ いて の 回 路 
規模 や 動作 速度 へ の 影響 を 気 に する 必要 が な く な る こと は , 
大 き な メ リッ ト に な り ま す . あら か じ め 組 み 込 まれ た 機能 
を 活用 する こと は , これ か ら は と て も 重要 に な る で し ょ う . 
主要 な FPGA が 持つ , これ ら の 非 論理 機能 を 表 1 に ま と 
め ま す . 例え ば , 米国 Xiimx 社 の FPGA Spartan-3 フ ァ ミ 
リ 」 に は , 18 ビ ッ ト XX 18 ビット の 演算 が で きる 4^ 104 個 
の 乗算 器 が 搭載 され て いま ず 表 2).「 Virtex-4 フ ァ ミ リ 」 
で は この ハー ド ・ ワ イヤ ー ド 論理 の 乗算 器 に 加算 器 と マル 


IOE I/O ブ ロッ ク ) 図 回 


論理 凶 | 論理 図 
IOE | ブロ ッ ク ブロ ッ ク 図 ブロ ッ ク 図 [ブロック IOE 


M4K RAM 較 
( メモ リ ・ ブ ロッ ク ) 


DCM 凶 IOB 較 
( Digital Clock Management) 財 IO ブロック) 
/ 四 岬 皿 川 同 四則 
IOB 
3 | B 則 
almiimimll | ト ー 
IOiOiO SI ヽ 主 
IOB 
Block RAM 較 乗算 器 
CLB 図 ( メモ リ ・ ブロック) 
( Configurable Logic Block) 


( a) Spartan-3 フ ァ ミ リ の 構造 凶 
図 1 FPGA の 構造 


賠 = 


( b) Cyclone ll ファ ミリ の 構造 較 


( a) は , Xilinx 社 の Spartan-3 フ ァ ミ リ の うち の XC3S200 か ら XC3S2000 ま で の 構造 を 示し て いる . XC3S4000 と XC3S 5000 で は , 左側 の チッ プ 全 体 の 図 の 点 
線 で 示し た 列 の 部 人 中 央 の CLB の 中 ) も メモ リ ・ ブ ロッ ク ( Block RAM) に な る . XC3S 50 で は , 乗算 器 や Block RAM は 左側 の 1 列 だ け に な る .( b) は Altera 社 


の Cyclone LT フ ァ ミ リ の EP2C20 の 構造 を 示し て いる . 
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表 1 


ファ ミリ 名 


主要 な FPGA が 持つ 非 論理 機能 


乗算 器 


み 23 ら コリ ) 


クロ ッ ク 管 理 


Cyclone 


な し 


M4K RAM 


13~ 64 個 


PLL 1 一 2 個 


Cyclone 


18 ビ ッ ト X 18 ビ ッ ト 
13 個 ~ 150 個 


M4K RAM 


26- 250 個 


PLL 2 一 4 個 


Altera 社 


Stratix 


DSP ブ ロッ ク 
6 一 2 個 


M512 RAM 
M4K RAM 
M-RAM 


94~ 767 個 
60~ 364 個 
1<9 


PLL 6 一 12 


Stratix 日 


DSP ブ ロッ ク 
12~ 96 個 


M512 RAM 
M4K RAM 
M-RAM 


104 一 


PLL 6 一 12 個 


Spartan-3 


18 ビ ッ ト X 18 ビ ッ ト 
4 104 個 


Block RAM 


72K 一 1872K ビッ ト 


DCM 


Virtex-I Pro 


18 ビ ッ ト X 18 ビ ッ ト 
12~ 444 個 


Block RAM 


216K 7992K ビッ ト 


DCM 


Xilinx 社 


Virtex イ LX 


DSP ブ ロッ ク 
32- 96 個 


Block RAM 


864K 一 6048K ビッ ト 


DCM 


Virtex イ SX 


DSP ブ ロッ ク 
128 512 個 


Block RAM 


2304K 一 5760K ビッ ト 


DCM 


Virtex イ FX 


DSP ブ ロッ ク 
32- 192 個 


表 2 Spartan-3 フ ァ ミ リ の 概要 


型 名 


CLB ア レイ 
( 1CLB= 4 スラ イス ) 


Block RAM 


ロウ 


カラ ム 


648K ~ 9936K ビッ ト 


DCM 


DSP ブロック : 積 和 演 算 な ど が 可能 . Altera 社 
と Xilinx 社 で は 構造 が 異な る 

M512 RAM : 512 ビ ピット サパ リティ の メモ リ ・ 
ブロ ッ ク 

M4K RAM : 4K ビ ッ ト サ パリ ティ の メモ リ ・ ブ 
ロッ ク 

M-RAM : 512K ビ ピット パリ ティ の メモ リ ・ ブ 

ロッ ク 

分 散 RAM : 論理 ブロ ッ ク 内 の LUT を 使用 し た 
メモ リ 

Block RAM : 18K ビ ッ ト の メモ リ ・ ブ ロッ ク 

PLL : phase-locked loop 


DCM : Digital Clock Management 


バ め クー ジ / 


XC3S50 


16 12 


192 


TQ144, PQ208 


XC3S200 


24 20 


TQ144, PQ208 


XC3S400 


PQ208, FT 256 


XC3S1000 


FG320, FG456, FG676 


XC3S1500 


FG456, FG676 


XC3S2000 


FG900 


XC3S4000 


FG1156 


XC3S5000 


チ プ レク サ も 加わ っ た DSP ブ ロッ ク に 進化 し て いま す . 


乗算 器 の 使い か た 


ディ ジタル 信号 処理 DSP) アプ リケーション に お いて 
E* が 行わ れ ま す . 乗算 回 路 は どう 
し て も 回 路 規 模 が 大 きく な り が ち で す . そこ で , あら か じ 
め FPGA に 搭載 され た 乗算 器 を 使い こなせ る か どう か が , 
ディ ジタル 信号 処理 アプ リケーション 構築 に 際 し て と て も 
要 な 要素 と な り ま す . 

FPGA に 乗算 器 が 搭載 され て いる こと を 知り な が ら , き 
月 し て いな い ケ ー ス も ある よう で す . 乗算 器 は と 
て も 簡単 に 利用 で きる の で , これ を 機会 に 積極 的 に 使用 し 


は , 非常 に 多く の 乗算 処理 


lil 


ちん と 活 有 


て みて くだ さい . 


5) 


FG1156 


人 @ * で 手軽 に 記述 する 


HDL で は , 乗算 回 路 は きわ め て 簡単 に 記述 する こと が で 
きま す ., 
リス ト 1 に 18 ビッ ト X 18 ビ ッ ト 乗算 回 路 の 記述 例 を 示し 


ます . VHDL で は , 加算 で + を 使う の と 同様 に * と 記述 す 
る だ け で す . * を 使用 する た め に は , IEEE.std_logic_signed 
の パッ ケー ジ 呼 び 出し が 必要 で す . signed で は な く , 
unsigned に する と , 18 ビ ッ ト X 18 ビ ッ ト の 乗算 の た め に , 


3 個 の 乗算 器 を 使用 し て し まい ます . 
* で 記述 し た 乗算 回 路 を 乗算 器 に 割り 当て る の は FPGA 


本 


開発 ツー ル の し ご と で す . 乗算 回 路 の 合成 と し て は , ハー 
ド ・ マ クロ で 実装 され た 乗算 器 を 使う ほか に , FPGA の 基 
理 ブ ロッ ク を 構成 する LU 1ookup table) で 実現 する 


方 法 も あり ます . そこ で , 図 2 に 示し た 論理 合成 プロ パテ 
イ で , * で 記述 し た 乗算 回 路 を ハー ド ・ マ クロ の 乗算 器 に 
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- ーー 


リス ト 1 18 ビ ッ ト X 18 ビ ッ ト 乗算 回 路 の VHDL 記述 例 


11b ェ ary TEEE: 

uge TEEE.STD LOGTC 1164.a11 

uge TEEE.STD LOGTC ARTTH.a11 

uge TEEE.STD LOGTC STGNED .a11: 
ーー 


81gna1 B node 
81gna1 C node 


StQd_ 1ogic Vector(D wiQdth-1 downto 0): 
StQd 1ogic_ Vector(D wiQdth-1 downto 0): 


begin 
ONSrGNED で は な いと ころ に 注意 
proocess(CLK, RST) 
en モ t1ty Mu1tip1ter 8 1g E(RST = "1!) 
す enerio ( 入 < 三 
D_width 1nteger :=18 B node <= (otherg => 
) 』 C_ node <= (otherg => 
port ( e1giE(CLK event and CLK = 
std 1ogio: 3E(CE = !1「) then 
gtd _1og1o: ム A <= B node 
Std 1og1o: B node <= B: 
in sd 1ogio Vector(D _w1dqth-1 downto 0): C_ node <= で: 
3n sd 1ogio Vector(D w1dqth-1 downto 0): end 1F: 
ou て sd 1og1o vector ((D_ width*2-1) downto 0) end 1FE: 
end prooeBS8z 


begin 

then 

(otherg => '0!): 
!07)』 
00 
!「1「) then 
1n 
1n 
1n 


* C _node: 


) : 
end Mu1Eip11ier 8: 
end RTT: 


arohiteoture RTT,  oF Mu1tip11ier 8 tg 


Multpiier 


Process Propertjes 


Synthesis Options HDLOptions | Xilinx Specific Options | 


Setting 


Specy opbions for analyss を synihesis、 Note: The avallabdRy of some ophons depends on Ihe cumren device family. 


Uptmizalion Technique Auto Global Uptions IMAX Devices Dn 凡 
( Speed Id 
で Balanced ビ 
(Area ド じ 


「 Cresle debuggng nodes lor IP cores 

レツ AutoDSP Block Heplacement レ Aulo npenDran Pins 

レツ Auto HOM Heplacemen ド ビ 

トレ Auo RAM Heplacemert ルツ Aulo Shwt Regster Replacemer 
ルレ Aulo RAM Block Balancng IM PowerUp Dont Cae 


DSP Block Balancng マ 


8 MM 
国 
『 


( a) ISE 6.3i Siae Machme Processinc: 
Reshucture Mullipleset | コ 
More Seli 
eo 
Julo conhol he conversion ol catan DSP hook aices duing DSP block ban 
2 
論理 合成 の プロ パテ ィ 設定 


ISE 6.3i で は , 乗算 器 に 実装 する 場合 ば Auto」 ま た は 
「 Block」 を 選択 する . Quartus Il では,「 Auto」 ま た は 
「 DSP blocks」 を 選択 する . 


( b) Quartus Il 4.2 


表 3 コン パイ ル 結 果 の 比較 
乗算 器 AUTO) 


Dev1oe u 上 111za1on 8umma エ Y : 


Dev1oe ut 上 111za1on 8ummary : 


of 124 60 を を 
of 75 0 を 


75 out of 124 60 
0 OUT OF 75 0 


Numibper of Externa] TOBg 
Numbper of LOCed Externa] TOBg 


Number of Externa] TOBg 


ISE 63i Number of LOCed Externa] TOBg 


XC3S50VQ1004 


Number ofF MULT18X18g 


Number ofF BUFGMUXg 


OUu ヒ 


Numbper of S1ioes 


Numiber ofF BUFGMUXg 


175 OUT OF 768 22* 


1 OUT OE 8 12 を 


Quartus ll 42 
EP2C5Q208C6 


Tota1 
Tota1 


1ogio e1emeng 
ェ ed1 8 ヒ 上 erg 

Tota1 
Tota1 


png 

Yirtua1] pins 

Tota1] memory bitg 

Embpedded Mu1tip1ier 9-bi elementg 
Tota1 PLLgs 


0/4,608 (05) 
72 

75/142 (52) 

0 
0/199, 808 (0*) 
2/26 (7$) 

0/2 (0$) 


Tota1 
Tota1 


1ogic el1ements 
reg1 st 上 erg 

Tota1 
Tota1 


p1ng 
Yirtua1] ping 
Tota1 memory bitg 


Tota1 PLLg 


注 : コン パイ ル 結 果 は ツー ル の バー ジョ ン や オプ ショ ン 設 定 に よっ て 変わ る こと が ある 
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Embpedded Mu1Etip1ier 9-bit e1ementg 


432/4,608(9$) 
72 

75/142 (52$) 

0 
0/119, 808 (0$) 
0/26(0$) 

0/2 (0$) 


ーー 


割り 当て る 設定 を 行う 必要 が あり ます . Xihmx 社 の ISE 63 
の 場合 , Process for Soorce ウ ィ ン ド ウ の Synthesize - 
XST」 を 右 ク リッ ク し ,「 Properties.…」 を 選択 し ます . 
Process Property 画面 の HDL Option タ ブ の 中 の Multiplier 
Style で 設定 し ます . 米国 Altera 社 の Quartus IT 42SP1 の 
場合 ,「 Assignments」 す Settimgs..」 で Settings ウ ィ ン ド ウ 
を 開き ます . ウィ ンド ウ の 左側 に ある Analysis & Sysnthesis 
Settings の DSP Block Balancing で 設定 し ます . 

コン パイ ル ( 論理 合成 お よび 配置 配線 ) の 結果 を 表 3 に 示 
し ます . 乗算 器 が 割り 当て られ た か どう か は , Xilinx 社 の 
ISE 63 な ら ば , Process for Source ウ ィ ン ド ウ の Imple- 


リス ト 2 演算 式 と デー タ 幅 を 変更 し た VHDL ソー ス ・ コ ー ド 
11brary TEEE: 

uge TEEE.STD LOGTC 1164.a11: 

uge TEEE.STD LOGTC ARTTH.a11 

uge TEEE.STD LOGTC STGNED .a11 


en モ ュ ty Mult1p1ier 1g 
9enerio ( 
D width : 


integer :=16 


Std _1oq1o: 
Std 1ogio: 
Std 1ogio: 

: 3n gd 1og1io veotor(D width-1 downto 0): 

: 3n gd 1og1io veotor(D width-1 downto 0): 

: ou sd 1og1o_Veoor ( (D_ width*2-1) downto 0) 

) 
end Mu]tip11er: 


architeoture RTT」 oF Mu]ltip1ier 1g 


gtgna1 B node : 
gtgna1 C node : 


gtd 1og1o_vectcor(D _w1dth-1 downto 0): 
std 1og1o veotor(D width-1 downto 0) : 


表 4 デー タ 幅 や 演算 式 の 変更 の 影響 


B node * C node * B node : 


ment Design」 ゴ Place & Route」 を 選択 し て 「 Place & 
Route Report」 を ダブ ルク リッ ク す る と 表示 され る レ ポー 
ト ・ フ ァイル で 確認 し ます . 乗算 器 を 使用 する よう に 指示 
し た 場合 は ,「 Number of MULT 18x18s」 と いう 項目 が 出 
現し , 正しく 乗算 器 が 使わ れ て いる こと が 示さ れ ま す . 乗 
算 器 を 使用 し て いな いと き は この 項目 が 現れ ませ ん . LUT 
の 使用 率 な ども 確認 で きま す . 乗算 碧 に 割り 当て られ る と , 
論理 ブロ ッ ク が まっ た く 使わ れ て いな いこ と も わか り ま す . 


信 デー タ 幅 や 演算 式 の 変更 の 影響 を 探る 
演算 の ビッ ト 幅 を 変化 させ る と , 必要 な 規模 に 応じ て 最 
適 な 数 の リソー ス が 割り 当て られ る こと に な り ま す . デー 


begin 


proces8(CLK, RST) begin 
FE(RST = 「1!) then 
入 <= (otherg => 「!0!): 
B_node <= (oherg => !'0!)』 
C_ node <= (others => !0!): 
e1giE(CLK event and CLK = '1') then 
3E(CE = !1!) then 
--- どちら か を 選択 
ム <= B node * C node * B node: 
ーー ム <= B node * C node * B node * 
C_nodej 


ー- 式 1 
ー- 式 2 


B_node <= B: 
C_ node <= C』 
end 1F: 
end 1E: 
end prooe88z 


end RTT: 


Bl node iv C node nr pode rc node 


3 out of 4 
8 ou of 768 


MULT18X188 
S1iceg 


Number 
Number 


AUTO / BLOCK 


邊 ラテ 
Numbper ofF MULT18X18g 5 ou of 4 125 を 
XC3S200 の 場合 

Numbper ofF MULT18X18gs 


Numbper ofF S]ioeg 


5 out of 12 
17 ou ofF 1920 


Number S1ioceg 324 ou oE 


D w1qdEh : inEeqer : =18 


( a) D_ width : 


76842 告 


1nteger : 


Number of S1]ioeg 508 out of 768 


=16 固定 


D_ width : inEeger : =20 


4 ou ofE 4 
11 ou ofF 768 


Number MULT18X18g 


Number 8S1ioeg 


AUTO / BLOCK 


100 る 
1] 


詩 ヲ : 王 


Number of MULT18X18g 9 out of 4 


XC3S200 の 場合 


Numbper ofF MULT18X18g 
Number of 8S]ioeg 


9 out of 12 
55 ou of 1920 


Number 


409 ou ofE 768 


53 入 


Number of 81ioeg 


(b) A = Bnode*Cnode * Banode , 固定 
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505 ou of 768 
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タ 幅 や 演算 式 の 変更 に よっ て コン パイ ル 結 果 が 変わ る よう 
す を 見 て み ま し ょ う . 
デー タ 幅 を 18 ビ ッ ト か ら 変 更 す る た め に は , リス ト 1 の , 


D width : inmEeger :=18 


の 部 分 を 修正 し ます . 演算 式 は , 
A = B node * C nod@: 
の 部 分 で す . 


ム A=BrnoQe*Cnode*Bnode*Cnode : 


リス ト 3 コン ポー ネン ト を 直接 記述 


11brary TEEE : 

uge TEEE.STD LOGTC 1164.a11 
11brary UNTSTM: 

u8e UNTSTM .Ycomponentg .a11: 


entity Mu1tip1ier omp 1g 
9enerio ( 
D width : integer :=18 
) 5 
port ( 
CLK : in std 1og1o: 
RST : nm gd 1og1o: 
CE  : in gd 1og1o: 
: 1n gtd 1ogio_vector(D_w1dth-1 downto 0): 
: 1n gtd 1ogio_vector(D width-1 downto 0): 
: ou std 1ogio_ veotor ( (D_w1dth*2-1 ) 
downto 0) 


end Mu1t1p11er CmD: 
aroh1teoture RTT, ofF Mu]t1p11er omD 1g 
begin 


MULT18X188 1ngs 
Por map ( 


: MULT18X188 


36-b1 mu1tip1]1er oOuEpu 
18 - bi 上 mu1tip11er 1npu 
18-bit mu1t1ip11er 1npu 上 
C1oock 1npu ヒ 上 

C1ock enab1e 1npu 
8ynchronous reset input 


図 3 MULT18X18S 
MULT18X18S コン ポー ネン ト の 
概要 ( a) コン ポー ネン ト 図 


出 カ レジ スタ 付き の 18 ビッ ト X 18 ビ 
ッ ト 乗算 器 コ ン ポ ー ネ ン ト で ある . 
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と いう よう に , 乗算 の 数 を 変え て いき ます . 

乗算 数 を 変え た VHDL ソー ス ・ コ ー ド を リス ト 2 に , ISE 
63i に よる コン パイ ル 結 果 を 表 4 に 示し ます . 3 回 の 乗算 を 
行う 回 路 な ら , 5 個 の 乗算 器 を 必要 と し ます . 使用 する 乗 
算 器 の 数 は , * の 数 と 一 致し な い の で 注意 が 必要 で す . 

ター ゲッ ト ・ デ バイ ス が XC3S50 の 場合 , 4 個 の 乗算 器 
し か 搭載 し て いな いた め , 5 個 の 乗算 器 を 必要 と する 回 路 
を 実装 し よう と する と エラ ー に な り ま す . し か し , 乗算 回 
路 を LUT に 割り 当て る よう に 論理 合成 ツー ル に 指示 すれ 
ば , デー タ 幅 を 16 ビ ッ ト と し た と き に 実装 可能 に な り ま す . 

5 個 の 乗算 器 を 使う 回 路 で あれ ば , 4 個 の 乗算 器 と LUT 
で 実装 で きそう で す が , 自動 的 に 合成 し て は く れ な いよ う 
で す . この よう な 場合 , 乗算 器 を 使う 部 分 を 次 に 説明 する 
コン ポー ネン ト で 明示 し て 記述 し , 残り は * で 記述 し た う 
え で 乗算 器 の 構成 を LUT に 指定 し て コン パイ ル し ます . 


@⑱ コン ポー ネン ト で 記述 する 

リス ト 3 に , 乗算 器 を 明示 的 に 記述 する 例 を 示し ます . 
3 の MULT 18X18S コ ユン ポー ネン ト を 指定 し て いま す . 
UNISIM の ライ ブラ リ 宣言 と , UNISIM.vycomponents の 
パッ ケー ジ 呼 び 出し が 必要 で す . 

コン パイ ル 結 果 を 表 5 に 示し ます . リス ト 1 と 同じ よう 
に , 乗算 器 に 割り 当て られ て いる こと が わか り ま す . 
リス ト 3 の よう に 直接 コン ポー ネン ト を 指定 し た 場合 は , 
2 の 指定 で 乗算 回 路 を LUT に 割り 当て る よう に 指示 し て 
も , 強制 的 に ハー ド ・ マ クロ が 使用 され る こと に な り ま す . 


表 5 MULT18X18S を 使用 し た 場合 の コン パイ ル 結 果 
AUTO/BLOCK 


Number ofF MULT18X18s 1 ou of 4 25 


35: 0] 図 


Number ofF MULT18X18s 1 ou of 4 25 る 


LUT LUT 指定 を 行っ て も , 強制 的 に MULT 18X18s が 使 


われ て いる . 


( b) ブロ ッ ク 図 図 


Spartan-3 の 場合 , 乗算 器 は , 図 4 の よう に メモ リ ・ ブ 
ロッ ク と 論理 ブロ ッ ク の 間 に 配 置 さ れ て いま す . ディ ジ タ 


ル 信 号 処理 で は , 演算 結果 を メモ リ に 貯め て お く こと が よ 
く あり ます . 適切 な 配置 を 考慮 し て 回 路 を 設計 する こと で , 
性 能 向上 が 期待 で きま す . 


@ IP コア 生成 ツー ル で カス タマ イズ 

乗算 器 の 機能 を カス タマ イズ し た いと き に は , FPGA 開 
発 ツ ー ル が 持つ IP コア 生成 機能 を 使用 し ます . Xihmx 社 の 
FPGA 開発 ツー ル ISE で あれ ば , CORE Generator を 使用 
し まず 有償 版 の ISE の み 対 応 し て いる ). Altera 社 の 
Quartus IT に は , MegaWizard と いう 機能 が あり ます . 


感 Psameters | 詳 core ovewew 


図 4 乗算 器 の 配置 


Spartan-3 の 例 を 示し て いる . メモ リ ・ ブ 
ロッ ク と 論理 ブロ ッ ク の 間 に 配 置 さ れ て 
いる . 


例え ば , 符号 付き / 符 号 な し 演算 の 選択 や 入出 カレ ジス 
タ の 有無 な どの 選択 が 可能 で す . 設定 し た 動作 に 必要 な 乗 
算 避 周 辺 回 路 を 含め た 状態 で ネッ トリ スト が 生成 され ます . 
また , シミ ュ レ ーション 用 の ファ イル も 生成 され ます . 
ここ で 生成 され る ネッ トリ スト は , 論理 合成 の 性 能 に 左 
右 さ れる こと な く 一 定 の 性 能 を 引き 出す こと が で きる た め , 
速度 や 面積 の 最適 化 に た い へ ん 寄与 し ます . 筆者 の 場合 , 
乗算 器 を 使用 する 場合 な ら , ほとん ど と 言っ て よい ほど こ 
の ツー ル で 生成 し た コン ポー ネン ト を 使用 し て いま す . 
Xilinx 社 の ISE の 機能 で ある CORE Generator に よる 乗 
算 器 の 設定 手順 を 図 5 に 示し ます . すべ て の 設定 を 行っ て 
か ら , ISE の テン プレ ー ト 機能 を 使用 「 Edit」 Language 


| 較 contsct| 還 web unks | 


II 中 \ 逐 次 処 \ 
Multiplier 並列 処理 か 逐次 処理 か を 指 


定 で きる . MULT18X18 出 
カレ ジス タ な し ) を 使用 する 
場合 は Parallel の み 凶 

い 


ーー ママ ヘ ヘ ララ 
LUT ベー ス と ハー ド ・ マク ロ ・ 
ベー ス の どちら で 乗算 器 を 
実現 する か を 選択 で きる 較 

ペー ニー ニー パー パシ 


lmult18bit 


IMulliplier ConStruction 
Use LUTs < Use 18x18 Mulliplier Blocks 
Virtex-Il Mulliplier Optimization 


隊 


で Area 


論理 合成 オプ ショ ン を 指定 . 
面積 重視 か 速度 重視 か を 
選択 凶 


LaWou 
ルレ Create RPM 
Shape 


「 配置 制約 を 与え る か どう か 
の 指定 較 


Rectangular Shape 「 Trangular Packing 


| www | 
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Generats | Dismiss 


peta sheet。 | version. | [plsplycoreFootprm 


感 Parameters | 呈 core ovewew 


gg 


図 5 
CORE Generator を 使用 し て 乗算 器 を 作成 


| 圏 conact| 呈 web Links | 
Multiplier 


入力 段 に レジ スタ を 使用 す 
る か どう か を 指定 較 


エ InputOptions 
ドレ Reglster Inputs 
PotA 


シマ ビッ ト 幅 を 指定 較 
Width: 6 Valid Range: 2.64 
[< 


で Signed 
r ParB 


Width: 6 Valid Range: 2.64 
Dats Type 


(Unsigned f Controlled By 


符号 付き か どう か を 指定 図 | 


上 Signed ("Unsigned 


_-esck | LNeewz ]| 
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符号 付き 符号 な し 演算 の 選択 や 入出 カレ ジス タ 
の 有無 な どの 選択 が 可能 . 


Generats | plsmiss 


Data sheet。 | Versioninb- |  「 DisplayCoreFoopqmt 
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図 5 
CORE Generator を 使用 し て 乗算 
器 を 作成 つづ き ) 


圏 Paameters | 呈 core ovewew| 圏 conact| 圏 web unks | 


kg 他 


Multiplier 


出力 デー タ 幅 を 指定 較 | 


ェ OutputOptions 
レジ スタ を 挿入 する か どう 
か を 指定 図 


width: Valld Range: 1..128 
(* Registered 


("Non Registered ("Both 


Handshaking Signals 


デー タ 入力 制御 ピン を 使用 
する 場合 は , チェ ッ ク す る . 
制御 の 詳細 は デー タ シ ー ト 
参照 較 


「 ND 「 RFD 


し =Back ]| New 
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デー タ シ ー ト を 開く 凶 


Generte | plsmss | 3 39838RB5P Ra 


感 Parameters | 喘 core ovewew| 圏 conlact| 圏 web unks | 


ifE 


パイ プラ イン 段数 を 指定 . 
段数 が 多い と 演算 サイ クル 
は 増え る が , 使用 で きる 最 
大 動作 周波 数 が 上 が る 図 


Multiplier 


Plpeline 
… Maximum Pipelining 


(~ Minimum Pipelining 


ag リセ ッ ト ・ オ プシ ョ ン を 指 た 上 


ルレ Asynchronous Clear 
Eiocknablg 
CE Overrides 


PE 


「 Synchronous Clear 


演算 に 必要 な クロ ッ ク ・ サ 
イク ル 数 が わか る 較 


QOutputLatency 2 
For optimumm eciency do not selectACLR orSCLR 


「 Display Core Footprint 


図 6 テン プレ ー ト を 参考 に コン ポー ネン ト を 挿入 
作成 し た 名 まえ の コン ポー ネン ト の 記述 例 を 見 る こと が で きる 


【9) Lanruace Templates 


ー The following code must appear in the VHDL architecture headeri 
component multl9bit 


RT leele_WECTOR 17 downto 6) 
1 0 を 1C. O 
b: 1N std_iogic_VECTOR(17 downto 0): 
Gi DUT std_logic_VECTOR(35 domto 0): 
ce: IN std_logics 

aclr: IN std_loglc): 

Component : 


ー- The following code must appear in the VHDL architecture body. 
ー Substitute your own instance name and net names。 


your_instance_neme : mult18bit 
port map 
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Template」 を 選択 ) すれ ば , 図 6 の 画面 に な り ま す . CORE 
GEN フ ォ ル ダ か ら 人 作成 し た 名 まえ の コン ポー ネン ト の 記述 
例 を 見 る こと が で きま す . あと は リス ト 3 と 同様 の 記述 で 
コン ポー ネン ト 登録 する と よい で し ょ う . 

場合 に よっ て は この テン プレ ー ト が 表示 され な いと き が 
あり ます が , ISE の Process View か り Regenerate Core」 
を 実行 する こと で 使用 で きる よう に な り ま す . 


DSP プ ブロッ ク の 使い か た 


ディ ジタル 信号 処理 で は , 非常 に 多く の 積 和 演 算 を 行 


『 上 の 線 を 17 ビ ッ ト 右 シ フト させ た 信号 較 
し ___ 一 - 上 の 線 を 17 ビ ッ ト 右 シ フト させ た 信号 訳 PCIN 


図 7 DSP48 2 個 分 ) の 機能 ブロ ッ ク 


上 の 線 を 17 ビ ッ ト 右 シ フト させ た 信号 図 
上 の 線 を 17 ビ ッ ト 右 シ フト させ た 信号 PCIN 


18 ビ ッ ト X 18 ビ ッ ト の 乗算 器 に 加算 器 や レジ スタ を 追加 し た DSP ブ ロッ ク で ある . X, Y, Z の マル チ プ レク サ の 切り 替え を を クロ ッ ク ・ サ イク ル ご と に 個別 に 制 


御 で きる . 


いま す . 乗算 器 だ けが ハー ド ・ マ クロ で 搭載 され て いる 
FPGA で 積 和 演 算 を 行う 場合 , 加算 器 や マル チ プ レク サ は 
論理 ブロ ッ ク を 使っ て 構成 し な けれ ば な り ま せん . つま り , 
倫理 ブロ ッ ク に よる 遅延 が ボトル ネッ ク と な る 可能 性 が あ 
り ま す . せっ か く の 乗算 器 の 能力 を 活用 し きれ な いと いう 
こと に な り ま す . 


9 


に 


@ 積 和 演 算 が 可能 な DSP ブロ ッ ク 

Xilinx 社 の Virtex-4 フ ァ ミ リ 」 で は , 18 ビ ッ ト ※ 18 ビ 
ッ ト の 乗算 器 に 加算 器 や レジ スタ を 追加 し た DSP ブロ ッ ク 
を 搭載 し て いま す . 

Virtex-4 フ ァ ミ リ の DSP ブ ロッ ク を 図 7 に 示し ます . 
図 8 の よう に , 二 つ の DSP48 ス ライ ス が 並ん だ 形 で 配置 
され て いま す . こう する こと に よっ て , 互い の 演算 結果 を 
高速 に 伝達 する こと が で きま す . 例え ば , 複素 数 演算 や 多 
ビッ ト 演算 に 効果 的 な 配置 と いえ ます . 


8 
DSP48 の 配置 関係 図 DSP48 DSP48 
DSP48 を 2 タイ ル 並 べ て 構成 す 1 3 


る こと で , 複素 数 演算 な ど を 効 
率 的 に 実行 する こと が で きる . 


DSP48 で は 加算 器 や いく つか の 演算 モー ド を 切り 替え る 
た め の マ ル チ プ レク サ , お よび レジ スタ が 用 意 さ れ て いま 
す . 灰色 で 示し た マル チ プ レク サ は , 論理 合成 時 に どの 入 
力 を 使用 する か を あら か じ め 選 択 し ます . 動作 モー ド を 使 
用 する と , 図 7 の X, Y, 2Z の マル チ プ レク サ の 切り 替え 
を クロ ッ ク ・ サ イク ル ご と に 個別 に 制御 で きま す . この 機 
構 を 利用 する こと で , さま ざま な 演算 を クロ ッ ク ・ サ イク 
ル 単 位 に 制御 する こと が 可能 と な っ て いま す . そう すれ ば , 
ディ ジタル 信号 処理 アプ リケーション の 核 と な る 演算 部 分 
余分 な 論理 ブロ ッ ク を 消費 せ ず に 実現 で きま す . FPGA 
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スラ イス 2 サイ クル 3 サイ クル 4 
1 ヵ 0][A 
1701IA > | | 
4g 大 [P > AR 170] 図 
17 ビ ッ ト 右 シ フト させ た 信号 図 
スラ イス 1 48 
ンー 
図 9 A 0Q171][A 商 
DSP ブロ ッ ク を 使っ た バレ ル ・ シ 
フタ 27 [B 容 48 回 還 
図 7 か ら バ レル ・ シ フタ で 使用 する ブ 
ロッ ク だ け を 抽出 し た も の . Zero 
サイ クル 1 サイ クル 2 


向け CPU コア と 組み 合わ せれ ば , オリ ジ ナ ル の ディ ジタル 
信号 処理 プロ セッ サ も 実現 で きま す . 動作 モー ド の 切り 替 
え だ け を PicoBlaze の よう な 小型 の CPU コア で 制御 する 使 
いか た も 考え られ ます . 


@ DSP ブロ ッ ク を 使っ た バレ ル ・ シ フタ 

DSP48 を 2 個 使用 し て 18 ビ ッ ト の バレ ル ・ シ フタ を 構成 
し た 例 5 を 挙げ ながら , DSP48 の 使い か た を 説明 し ます . 
図 7 か ら バ レル ・ シ フタ で 使用 する ブロ ッ ク だ け を 抽出 す 
る と 図 9 の よう に な り ま す . シフ ト 動作 は , 以下 の よう に 
な り ま す . 

1) スラ イス 1 を 使っ て 入力 デー タ に み を 掛け る . スラ イ 

ス 1 の 入力 デー タ は , 1 ビッ ト 右 シ フト し た も の . 

2) スラ イス 1 を 使っ て ゼロ を 加算 . 演算 結果 は 変わ ら な い 

が , 17 ビ ッ ト 右 シ フト し た 信号 が 出力 され る . 

3) スラ イス 3 を 使っ て 入力 デー タ に を 掛け る . 
4) スラ イス 2 を 使っ て 2) の 出力 と 加算 を 行う . 

これ で 下位 の 18 ビ ッ ト を 切り 取っ た も の が シフ ト 結果 に 
な っ て いま す . 

1 回 の シフ ト に 4 サイ クル 必要 で す が , パイ プラ イン 構 
成 な の で , 連続 し た デー タ で あれ ば 1 クロ ッ ク ご と に 出力 
を 得る こと が で きま す . また , 論理 ブロ ッ ク で 構成 し た 場 
合 と 比べ て 高速 に 動作 し ます . 


賠 まとめ 


本 稿 で は , FPGA に 搭載 され た 乗算 器 を 使う た め の HDL 
記述 と ツー ル の 使い か た に つい て 説明 し まし た . 一 つの 


96 Design Wave Magozine 2005 Aprl 


FPGA に 多数 の 乗算 器 が 搭載 され て いる の で , まず は * 記 
号 を どん どん 使っ て みる と よい で し ょ う . そし て , 最適 化 
の 必要 性 が で て きた ら CORE Generator な ど を 活用 し て い 
く と よい と 思い ます . 乗算 器 を 使用 する こと で , 複雑 な ア 
ル ゴ リ ズム で も 性 能 を 犠牲 に する こと な く 実現 で きる 可能 
性 が あり ます . CPU コア と の 組み 合わ せ も お 勧め で す . 
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